Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
この研究は、医療学生の反省エッセイを評価する際、ファインチューニングや具体例(エクサンプル)を含むプロンプトが精度向上に寄与する一方、GPT-4.1-mini などのモデルが低コストで高い再現性を示し、LLM による自動採点が多くの条件で人間とほぼ同等の精度と再現性を達成できることを明らかにした。